2019_NetSMF

一、NetSMF [2019]

《NetSMF: Large-Scale Network Embedding as Sparse Matrix Factorization》

近年来 network embedding 为图和网络建模提供了革命性的范式。network embedding 的目标是自动学习网络中对象（例如顶点、边）的潜在 representation 。重要的研究表明：潜在representation 能够捕获网络的结构特性，促进各种下游网络应用，例如顶点分类任务、链接预测任务。
在 network embedding 发展过程中，DeepWalk, LINE, node2vec 模型通常被认为是评估 network embedding 研究的强大基准方案。LINE 的优势在于它对大规模网络的可扩展性，因为它仅对一阶邻近性和二阶邻近性建模。也就是说，LINE 的 embedding 没有对网络中的 multi-hop 依赖。另一方面，DeepWalk 和 node2vec 利用图上的随机游走和具有较大 context size 的 SkipGram 来对更远的节点（即全局结构）进行建模。因此，DeepWalk 和 node2vec 处理大规模网络的计算成本更高。例如，使用默认参数设置的 DeepWalk 需要几个月的时间来嵌入一个由 6700 万顶点、8.95 亿条边组成的学术协作网络（ academic collaboration network ）。而执行高阶随机游走的 node2vec 模型比 DeepWalk 需要更多时间来学习 embedding 。
最近的一项研究表明，DeepWalk 和 LINE 方法都可以看作是一个闭式（closed-form ）矩阵的隐式分解。在这个理论的基础上，该研究提出了 NetMF 方法来显式分解这个矩阵，从而实现比 DeepWalk 和 LINEembedding $n\times n$ $n$ 为网络中的顶点数量，这使得直接构造和分解大规模网络的成本过高。
鉴于现有方法的这些局限性（如下表中的总结），论文 《NetSMF: Large-Scale Network Embedding as Sparse Matrix Factorization》建议研究大规模网络的 representation learning ，目标是达到高效率、捕获全局结构上下文（global structural context ）、并具有理论上的保证。论文的思想是找到一个稀疏矩阵，该矩阵在谱上逼近由 DeepWalk 隐式分解的、稠密的 NetMF 矩阵。稀疏矩阵需要较低的构造成本和分解成本。同时，使其在谱上逼近原始 NetMF 矩阵可以保证网络的谱信息（ spectral information ）保持不变，并且从稀疏矩阵中学到的 embedding 与从稠密 NetMF 矩阵中学到的 embedding 一样强大。
在这项工作中，论文提出了作为稀疏矩阵分解的 network embedding learning 方法 NetSMF 。NetSMF 包含三个步骤：
- 首先，它利用谱图稀疏化技术（ pectral graph sparsification technique ）为网络的随机游走矩阵多项式（random-walk matrix-polynomial ）找到稀疏化器（ sparsifier ）。
- 然后，它使用这个稀疏化器来构造一个非零元素数量明显少于原始 NetMF 矩阵、但是在谱上逼近原始 NetMF 矩阵的矩阵。
- 最后，它执行随机奇异值分解（randomized singular value decomposition ）以有效地分解稀疏的 NetSMF 矩阵，从而产生网络的 embedding 。
通过这种设计，NetSMF 保证了效率和效果，因为稀疏矩阵的逼近误差（approximation error ）在理论上是有界的。论文在代表不同规模和类型的五个网络中进行实验。实验结果表明：对于百万级或更大的网络，NetSMF 比 NetMF 实现了数量级上的加速，同时保持了顶点分类任务的有竞争力的性能（competitive performance）。换句话讲，NetSMF 和 NetMF 都优于公认的 network embedding 基准方法（即 DeepWalk, LINE, node2vec），但是 NetSMF 解决了 NetMF 面临的计算挑战。
总而言之，论文引入了通过稀疏矩阵分解来产生 network embedding 的思想，并提出了 NetSMF 算法。NetSMF 算法对 network embedding 的贡献如下：
- 效率：NetSMF 的时间复杂度和空间复杂度显著低于 NetMF。值得注意的是，NetSMF 能够在 24 小时内在单台服务器上为包含 6700 万个顶点、8.95 亿条边的大型学术网络（ academic network ）生成 embedding，而 DeepWalk 和 node2vec 将花费数月时间。另外在相同的硬件上，NetMF 在计算上是不可行的。
- 效果：NetSMF 学到的 embedding 能够保持与稠密矩阵分解的解决方案相同的表达能力。在网络中的多标签顶点分类任务中，NetSMF 始终优于 DeepWalk 和 node2vec 高达 34%、始终优于 LINE 高达 100% 。
- 理论保证：NetSMF 的效率和效果在理论上得到了保证。稀疏的 NetSMF 矩阵在谱上逼近于精确的 NetMF 矩阵，并且逼近误差是有界的，从而保持了 NetSMF 学到的 embedding 的表达能力。
相关工作：这里我们回顾了 network embedding、大规模 embedding 算法、谱图稀疏化spectral graph sparsification 等相关的工作。
- network embedding：network embedding 在过去几年中得到了广泛的研究。network embedding 的成功推动了许多下游网络应用network application，例如推荐系统。简而言之，最近关于 network embedding 的工作可以分为三类：
  - 受 word2vec 启发的、基于 SkipGram 的方法，如 LINE, DeepWalk, node2vec, metapath2vec, VERSE。
  - 基于深度学习的方法，如 《Semi-Supervised Classification with Graph Convolutional Networks》、《Graph Convolutional Neural Networks for Web-Scale Recommender Systems》 。
  - 基于矩阵分解的方法，如 GraRep, NetMF。其中，NetMF 通过将一系列基于 SkipGram 的 network embedding 方法统一到一个矩阵分解框架中来连接第一类工作和第三类工作。
  在这项工作中，我们利用了 NetMF 的优点并解决了它在效率方面的局限性。
  在文献中，PinSage 是一个用于十亿规模网络的 network embedding 框架。NetSMF 和 PinSage 的主要区别在于：NetSMF 的目标是以无监督的方式预训练通用的 network embedding；而 PinSage 是一种有监督的图卷积方法，既结合了推荐系统的目标，也结合了现有的节点特征。话虽如此，NetSMF 学到的 embedding 也可以被 PinSage 用于下游的网络应用。
- large-scale embedding learning：一些研究试图优化 embedding 算法从而用于大型数据集。其中的一部分专注于改进 SkipGram 模型，另一部分则聚焦于改进矩阵分解模型。
  - 分布式 SkipGram 模型：受 word2vec 的启发，大多数现代的 embedding learning 算法都基于 SkipGram 模型。有一系列工作试图在分布式系统中加速 SkipGram 模型。例如，《Parallelizing word2vec in shared and distributed memory》 在多个 worker 上复制 embedding 矩阵并定期同步synchronize 它们。《Network-efficient distributed word2vec training system for large vocabularies》 将 embedding 矩阵的列（维度）分配给多个 executor ，并将它们与一个 parameter server 进行同步。
    负采样negative sampling 是 SkipGram 的关键步骤，它需要从噪声分布（noisy distribution）中采样负样本。《Distributed Negative Sampling for Word Embeddings》 专注于通过使用别名方法（ alias method ）的分层采样算法（hierarchical sampling algorithm ）代替了 roulette wheel selection 从而优化负采样。
    最近，《Billion-scale Commodity Embedding for E-commerce Recommendation in Alibaba》 提出了一个十亿规模的network embedding 框架。该框架通过启发式地将输入图划分为小的子图，然后并行地、单独地处理这些子图。然而，该框架的性能高度依赖于图划分（graph partition ）的质量。另外，基于分区（partition-based）的 embedding learning 的缺点是：在不同子图中学到的 embedding 不共享相同的潜在空间，因此无法跨子图比较节点。
  - 高效的矩阵分解：隐式分解 NetMF 矩阵（例如 LINE, DeepWalk）或显式分解 NetMF 矩阵（例如 NetMF 算法）会遇到两个问题：首先，即使对于中等的上下文窗口大小（例如 T=10），该矩阵的稠密程度也会使得计算变得昂贵。其次，非线性变换（即，逐元素的矩阵对数）很难近似（approximate ）。LINE 通过设置 T=1 解决了这个问题。通过这种简化，LINE 以预测性能为代价实现了良好的可扩展性。NetSMF 通过有效地稀疏化稠密的 NetMF 矩阵来解决这个问题，其中这个稀疏化过程具有理论上有界的近似误差。
- spectral graph sparsification：谱图稀疏化在图论中已经研究了几十年。谱图稀疏化的任务是通过一个稀疏图来近似并代替一个稠密图。我们的 NetSMF 模型是第一个将谱图稀疏化算法纳入 network embedding 的工作。NetSMF 提供了一种强大而有效的方法来近似和分析 NetMF 矩阵中的随机游走矩阵多项式（random-walk matrix-polynomial）。

1.1 模型

1.1.1 基本概念

network embedding $G=(V,E,\mathbf A)$ $V$ $n$ $E$ $m$ $\mathbf A$ network embedding $V\rightarrow \mathbb R^d$ $v\in V$ $d$ embedding $\mathbf{\vec x}_v\in \mathbb R^d$ $d\ll n$ 。这个 embedding 向量捕获了网络的结构属性（ structural property），例如社区结构。顶点的 embedding 向量可以提供给下游应用程序使用，例如链接预测任务、顶点分类任务等等。
DeepWalk 模型是 network embedding 的开创性工作之一，并且在过去几年中一直被认为是一个强大的基准。简而言之，DeepWalk 模型分为两个步骤：
- 首先，DeepWalk通过网络中的随机游走过程生成一些顶点序列；
- 然后，DeepWalk 在生成的顶点序列上应用 SkipGram 模型来学习每个顶点的潜在 representation 。
SkipGram $T$ $b$ 进行参数化。最近，《Network Embedding as Matrix Factorization: Unifying DeepWalk, LINE, PTE,and node2vec》 的理论分析研究表明：DeepWalk 本质上分解了从随机游走过程中派生出的矩阵。更正式地讲，该论文证明了当随机游走序列的长度达到无穷大时，DeepWalk 隐式且渐进地分解以下矩阵：
$\begin{matrix} X Y^{⊤} = \log^{\circ} (\frac{{vol}_{G}}{b} M) \\ {vol}_{G} = \sum_{i} \sum_{j} A_{i, j}, d_{i} = \sum_{j} A_{i, j}, D = diag (d_{1}, d_{2}, \dots, d_{n}) \\ M = \frac{1}{T} \sum_{r = 1}^{T} {(D^{- 1} A)}^{r} D^{- 1} \end{matrix}$
其中：
- $\mathbf X\in \mathbb R^{n\times d}$ 为每个顶点的 embeddingembedding $\mathbf Y\in \mathbb R^{n\times d}$ 为每个顶点作为 context 时的 embedding 矩阵。
- $\log^\circ(\cdot)$ 为矩阵的逐元素 log 。
- $d_i$ $i$ degree $\mathbf D$ degree $\text{vol}_G$ degree $\text{vol}_G$ 也称作图的 volume ，
这种矩阵形式提供了基于 SkipGram 的 network embedding 方法的另一种观点（即，矩阵分解的观点）。此外，该论文还提出了一种叫做 NetMF 的显式矩阵分解方法来学习 embedding 。该论文表明：基于 NetMF 的 embedding 在顶点分类任务上的准确率要优于基于 DeepWalk 或 LINE 的 embedding 。
注意，如果在 T hopill-defined $\log (0) = -\infty$ 。因此，遵循 《NeuralWord Embedding as Implicit Matrix Factorization》NetMF $\text{truncLog}(x) = \log \max(1,x)$ 。因此，NetMF 的目标是分解矩阵：
${truncLog}^{\circ} (\frac{{vol}_{G}}{b} M)$
在这项工作的其余部分，我们将这个矩阵称作 NetMF 矩阵。
NetMF $r\le T$ 内的每一对顶点几乎都对应于 NetMF 矩阵中的一个非零项。回想一下，许多社交网络（social network ）和信息网络（information network）都表现出小世界（small world）的属性，即大多数顶点之间可以通过少量 step 而相互抵达。例如，截至 2012 年，Facebook 的可达顶点对（reachable pair），92% 的距离小于等于 5 。因此，即使设置一个中等的上下文窗口大小（例如，DeepWalk 中的默认设置 T=10NetMF $O(n^2)$ $\mathbf M$ $O(n^3)$ 复杂度的矩阵幂次运算，另外对稠密的 NetMF 矩阵进行矩阵分解也很耗时。
为了降低构造成本，NetMFtop $\mathbf M$ 。然而这个近似矩阵（approximated matrix ）仍然是稠密的，使得这种策略无法处理大型网络。在这项工作中，我们旨在解决 NetMF 的效率和可扩展性的缺陷，同时保持其效果优势。
计算 NetMF 的 top 特征值和特征向量也是耗时的。

1.1.2 NetSMF

在本节中，我们将 network embedding 开发为稀疏矩阵分解（ sparse matrix factorization），即 NetSMF。我们提出了 NetSMF 方法来构造和分解一个稀疏矩阵，这个稀疏矩阵逼近了稠密的 NetMF 矩阵。我们利用的主要技术是随机游走矩阵多项式稀疏化（ random-walk matrix-polynomial sparsification）。
我们首先介绍谱相似度（spectral similarity ）的定义和随机游走多项式稀疏化定理。
Spectral Similarity $G=(V,E,\mathbf A)$ $\tilde G=(\tilde V,\tilde E,\tilde{\mathbf A})$ $\mathbf L = \mathbf D_G - \mathbf A$ $\tilde{\mathbf L} = \mathbf D_{\tilde G} - \tilde{\mathbf A}$ $G$ $\tilde G$ $(1+\epsilon)$ 谱相似的（spectrally similar ）：
$\forall \vec{x} \in R^{n}, (1 - ϵ) {\vec{x}}^{⊤} \tilde{L} \vec{x} \leq {\vec{x}}^{⊤} L \vec{x} \leq (1 + ϵ) {\vec{x}}^{⊤} \tilde{L} \vec{x}$
定理（随机游走多项式的谱稀疏化器Spectral Sparsifier）：对于随机游走多项式（ random-walk molynomial ）
$H = D - \sum_{r = 1}^{T} α_{r} D {(D^{- 1} A)}^{r}$
$\alpha_r\ge 0, \sum_{r=1}^T\alpha_r = 1$ $O(T^2m\epsilon^{-2}\log^2n)$ $(1+\epsilon)$ spectral sparsifier $\tilde{\mathbf H}$ $\tilde{\mathbf H}$ $O((n\log n )\epsilon^{-2})$ $O(T^2m\epsilon^{-2}\log n)$ 。
证明参考：《Efficient sampling for Gaussian graphical models via spectral sparsification》 、《Spectral sparsification of random-walk matrix polynomials》 。
$O((n\log n )\epsilon^{-2})$ sparsifier $\tilde{\mathbf H}$ ，该稀疏化算法包含两步：
- $\mathbf H$ sparsifier $O(Tm\epsilon^{-2}\log n)$ 个非零项。
- spectral sparsification algorithm $O(\epsilon^{-2}n\log n)$ 。
$O(Tm\epsilon^{-2}\log n)$ 个非零项的稀疏矩阵已经足够可用，所以我们并没有采用第二步，这能够避免额外的计算。下面讲到的所有随机游走多项式稀疏化算法都仅包含第一步
$\alpha_r = \frac 1T$ ，因此有：
$H = D - \frac{1}{T} \sum_{r = 1}^{T} D {(D^{- 1} A)}^{r}$
我们定义：
$M = \frac{1}{T} (\sum_{r = 1}^{T} (D^{- 1} A)^{r}) D^{- 1}$
$\mathbf M = \mathbf D^{-1}(\mathbf D - \mathbf H)\mathbf D^{-1}$ 。
$\mathbf H$ $\tilde{\mathbf H}$ $\tilde{\mathbf M} = \mathbf D^{-1}(\mathbf D - \tilde{\mathbf H}) \mathbf D^{-1}$ $\tilde{\mathbf M}$ $\tilde{\mathbf H}$ 非零元素规模相当。最终我们可以分解这个稀疏矩阵从而获得每个顶点的 embedding ：
$X Y^{⊤} = {truncLog}^{\circ} (\frac{{vol}_{G}}{b} \tilde{M})$
我们正式给出 NetSMF 算法，该算法包含三个步骤：
- $\tilde G$ $G(V,E,\mathbf A)$ Path-Sampling $M$ $O(M)$ $\tilde{\mathbf H}$ 的非零项。在每一次迭代过程中：
  - $e=(u,v)\in E$ $r\in \{1,\cdots,T\}$ 。
  - $u$ $k-1$ $(u,u_{k-2},\cdots,u_0)$ $v$ $r-k$ $(v,u_{k+1},\cdots,u_r)$ $r$ $\mathbf p = (u_0,u_1,\cdots,u_r)$ 。同时我们计算：
    $Z (p) = \sum_{i = 1}^{r} \frac{2}{A_{u_{i - 1}, u_{i}}}$
  - $\tilde G$ $(u_0,u_r)$ $\frac{2rm}{MZ(\mathbf p)}$ 。如果边已经存在，则相同的边进行合并（只需要将权重相加即可）。
    $G$ $r$ $M\gt m$ 。
  - $\tilde G$ $\tilde {\mathbf H}$ $O(M)$ 个非零项。
    $\mathbf M$ 产生联系。
- NetMF $\tilde{\mathbf M} = \mathbf D^{-1}(\mathbf D - \tilde{\mathbf H}) \mathbf D^{-1}$ 。这一步并未改变非零项的规模。
- $\text{truncLog}^\circ(\frac{\text{vol}_G}{b}\tilde{\mathbf M})$ $d$ 维的 RandomizedSVD 分解。
  $O(M)$ 个非零元素，执行精确的 SVDRandomized SVD $d\times d$ 维的小矩阵上执行经典的 SVD 分解即可。
  采用 SVD 的另一个优势是：我们可以通过使用诸如 Cattell’s Scree test 来确定 embeddingrank $d$ ，使得奇异值幅度显著下降或者奇异值开始趋向于平衡的位置。
  rank d $\text{truncLog}^\circ \left(\frac{\text{vol}_G}{b}\tilde{\mathbf M}\right)$ 进行奇异值分解，这对于大型网络而言是不可行的。
NetSFM 算法：
- 输入：
  - $G= (V,E,\mathbf A)$
  - $M$
  - embedding $d$
- embedding $\mathbf X\in \mathbb R^{n\times d}$
- 算法步骤：
  - $\tilde G = (V,\mathbf\Phi,\mathbf 0)$ ，即只有顶点没有边。
  - $i=1,\cdots,M$ ，迭代步骤为：
    - $e=(u,v)\in E$ 。
    - $r\in \{1,\cdots,T\}$ 。
    - $u^\prime,v^\prime,Z \leftarrow \text{PathSampling}(e,r)$
    - $(u^\prime,v^\prime)$ $\tilde G$ $\frac{2rm}{MZ}$ 。
      如果有多条边相同则合并成一个，将权重直接相加即可。
  - $\tilde G$ $\tilde{\mathbf H}$ 。
  - $\tilde{\mathbf M} = \mathbf D^{-1}(\mathbf D - \tilde{\mathbf H}) \mathbf D^{-1}$ 。
  - $\text{truncLog}^\circ(\frac{\text{vol}_G}{b}\tilde{\mathbf M})$ $d$ RandomizedSVD $\mathbf U_d,\mathbf \Sigma_d,\mathbf{\vec V}_d$ 。
  - $\mathbf U_d\sqrt{\mathbf\Sigma}_d$ 。
PathSampling 算法：
- 输入：
  - $G= (V,E,\mathbf A)$
  - $e=(u,v)$
  - $r$
- $u_0$ $u_r$ $Z$ 值
- 算法步骤：
  - $k\in \{1,\cdots,r\}$ 。
  - $u$ $(k-1)$ $（u,u_{k-2},\cdots, u_0)$ 。
  - $v$ $(r-k)$ $(v,u_{k+1},\cdots,u_r)$ 。
  - $Z$ 值：
    $Z = \sum_{i = 1}^{r} \frac{2}{A_{u_{i - 1}, u_{i}}}$
  - $(u_0,u_r,Z)$ 。
Randomized SVD 算法：
- 输入：
  - $\mathbf K = \text{truncLog}^\circ(\frac{\text{vol}_G}{b}\tilde{\mathbf M})$ 。我们以行优先的方式存储矩阵，从而充分利用对称性来简化计算。
  - $d$
- SVD $\mathbf U_d,\mathbf\Sigma_d,\mathbf V_d$
- 步骤：
  - $\mathbf O\in \mathbb R^{n\times d}$ 作为投影矩阵。
  - $\mathbf Y = \mathbf K^\top\mathbf O = \mathbf K\mathbf O \in \mathbb R^{n\times d}$ 。
  - $\mathbf Y$ 进行正交归一化。
  - $\mathbf B = \mathbf K\mathbf Y\in \mathbb R^{n\times d}$ 。
  - $\mathbf P\in \mathbb R^{d\times d}$ 作为投影矩阵。
  - $\mathbf Z = \mathbf B \mathbf P\in \mathbb R^{n\times d}$ 。
  - $\mathbf Z$ 进行正交归一化。
  - $\mathbf C = \mathbf Z^\top \mathbf B\in \mathbb R^{d\times d}$ 。
  - $\mathbf C$ Jacobi SVD $\mathbf C = \mathbf U\mathbf\Sigma \mathbf V^\top$ 。
  - $\mathbf Z\mathbf U\in \mathbb R^{n\times d},\mathbf\Sigma\in \mathbb R^{d\times d},\mathbf Y \mathbf V\in \mathbb R^{n\times d}$ 。
PathSampling 算法的说明：
- $r$ $\mathbf p = (u_0,\cdots,u_r)$ ，则PathSampling 算法采样到该路径的概率为：
  $π (p) = \frac{w (p) Z (p)}{2 r m}$
  其中：
  $Z (p) = \sum_{i = 1}^{r} \frac{2}{A_{u_{i - 1}, u_{i}}}, w (p) = \frac{\prod_{i = 1}^{r} A_{u_{i - 1}, u_{i}}}{\prod_{i = 1}^{r - 1} D_{u_{i}}}$
- $r$ $\mathbf p = (u_0,\cdots,u_r)$ $(u_0,u_r)$ 的权重应该为：
  $\frac{w (p)}{π (p) M}$
$\tilde G$ 中的边的权重为：
$\frac{w (p)}{π (P) M} = \frac{w (p)}{(w (p) Z (p)) / (2 r m) \times M} = \frac{2 r m}{M Z (p)}$
NetMF 和 NetSMF 之间的主要区别在于对目标矩阵的近似策略。
- NetMF 使用了一个稠密矩阵来近似，从而带来了时间和空间上的挑战。
- NetSFM 基于谱图稀疏化理论和技术，使用了一个稀疏矩阵来近似。

1.1.3 复杂度

算法复杂度：
- PathSampling $M$ PathSampling $G$ $O(T)$ $O(1)$ roulette wheel selection $O(\log n)$ 。
  $O(M)$ $\tilde G$ $O(n+m)$ 空间来存储算法的输入。
- $O(M)$ $\tilde{\mathbf M} = \mathbf D^{-1}(\mathbf D - \tilde{\mathbf H}) \mathbf D^{-1}$ $\text{truncLog}^\circ \left(\frac{\text{vol}_G}{b}\tilde{\mathbf M}\right)$ 。
  $O(n)$ degree $\mathbf D$ $O(M)$ $\hat{\mathbf M}$ 。
- $O(Md)$ $O(d^3)$ Jacobi SVD $O(nd^2)$ 来计算Gram-Schmidt 正交化。
$G$ $n=10^{6}$ $m=10^7$ $T=10$ approximation factor $\epsilon = 0.1$ 。
- NetSMFPathSampling $M=Tm\epsilon^{-2}\log n\simeq 1.4\times 10^{11}$ $1.4\times 10^{11}$ $\frac{M}{n^2}\simeq 14\%$ 。
  然后我们在 randomized SVD 中计算 sparse-dense 矩阵乘积，近似矩阵的稀疏性可以大大加快计算速度。
- NetMF $n^2=10^{12}$ 个非零元素，这比 NetSMF 大一个量级。
$\epsilon$ 我们可以进一步降低 NetSMF 中近似矩阵的稀疏性，而 NetMF 缺乏这种灵活性。
并行化：NetSMF 的每个步骤都可以并行化，从而scale 到非常大的网络。NetSMF 的并行化设计如下图所示。
- 第一步：我们可以同时启动多个 PathSampling worker 来独立的、并行的采样多个路径，每个 workerworker $G=(V,E,\mathbf A)$ 。有很多选择可以满足这一要求，最简单的方法是将网络数据的副本拷贝到每个 worker 的内存中。但是如果网络非常大（例如万亿规模），或者 worker 内存受限时，应该采用图引擎来支持随机游走等图操作。
  在这一步结束时，我们设计了一个 reducer 来合并平行边并汇总它们的权重。
- $\tilde{\mathbf M} = \mathbf D^{-1}(\mathbf D - \tilde{\mathbf H}) \mathbf D^{-1}$ $\mathbf K = \text{truncLog}^\circ(\frac{\text{vol}_G}{b}\tilde{\mathbf M})$ 。
- 第三步：我们可以将稀疏矩阵组织为行优先的格式，这种格式可以在稀疏矩阵和稠密矩阵之间进行高效的乘法运算。其它稠密矩阵的算子（如高斯随机矩阵生成、Gram-Schmidt 正交归一化、Jacobi SVD）可以通过使用多线程或者常见的线性代数库来轻松加速。

1.1.4 近似误差分析

$\epsilon \lt 0.5$ degree $d_\min = d_1\le d_2\le \cdots\le d_n = d_{\max}$ $\sigma_i(\mathbf \cdot)$ $i$ 个奇异值。
$\mathbf F = \mathbf D^{-1/2}\mathbf H \mathbf D^{-1/2}$ $\tilde{\mathbf F} = \mathbf D^{-1/2}\tilde {\mathbf H} \mathbf D^{-1/2}$ ，则有：
$\forall i \in {1, \dots, n}, σ_{i} (\tilde{F} - F) < 4 ϵ$
证明：
$F = D^{- 1 / 2} (D - \frac{1}{T} \sum_{r = 1}^{T} D {(D^{- 1} A)}^{r}) D^{- 1 / 2} = I - \sum_{r = 1}^{T} \frac{1}{T} {(D^{- 1 / 2} A D^{- 1 / 2})}^{r}$
$\lambda_i(\mathbf F)\in [0,2)$ 。
$\tilde {\mathbf F}$ $\mathbf F$ $\epsilon$ spectral sparsifier，因此有：
$\forall \vec{x} \in R^{n}, \frac{1}{1 + ϵ} {\vec{x}}^{⊤} F \vec{x} \leq {\vec{x}}^{⊤} \tilde{F} \vec{x} \leq \frac{1}{1 - ϵ} {\vec{x}}^{⊤} F \vec{x}$
$\mathbf{\vec x} = \mathbf D^{-1/2}\mathbf{\vec y}$ ，则有：
$\begin{matrix} \frac{1}{1 + ϵ} {\vec{y}}^{⊤} F \vec{y} \leq {\vec{y}}^{⊤} \tilde{F} \vec{y} \leq \frac{1}{1 - ϵ} {\vec{y}}^{⊤} F \vec{y} \\ \to | {\vec{y}}^{⊤} (\tilde{F} - F) \vec{y} | \leq \frac{ϵ}{1 - ϵ} {\vec{y}}^{⊤} F \vec{y} < 2 ϵ {\vec{y}}^{⊤} F \vec{y} \end{matrix}$
$\epsilon \lt 0.5$ 。
$|\lambda_i(\tilde{\mathbf F} - \mathbf F)|\le 2\epsilon \lambda_i(\mathbf L) \lt 4\epsilon$ 。
$\sigma_i(\tilde{\mathbf F} - \mathbf F) \lt 4\epsilon$ 。
$\tilde{\mathbf M} - \mathbf M$ 的奇异值满足：
$\forall i \in {1, \dots, n}, σ_{i} (\tilde{M} - M) \leq \frac{4 ϵ}{\sqrt{d_{i} d_{min}}}$
证明：
$\tilde{M} - M = D^{- 1} (\tilde{H} - H) D^{- 1} = D^{- 1 / 2} (\tilde{H} - H) D^{- 1 / 2}$
根据奇异值的性质，我们有：
$\begin{matrix} σ_{i} (\tilde{M} - M) \leq σ_{i} (D^{- 1 / 2}) \times σ_{1} (\tilde{F} - F) \times σ_{1} (D^{- 1 / 2}) \\ \leq \frac{1}{{\sqrt{d}}_{i}} \times 4 ϵ \times \frac{1}{\sqrt{d_{min}}} = \frac{4 ϵ}{\sqrt{d_{i} d_{min}}} \end{matrix}$
$||\cdot||_F$ 为矩阵的 Frobenius 范数，则有：
${‖ {truncLog}^{\circ} (\frac{{vol}_{G}}{b} \tilde{M}) - {truncLog}^{\circ} (\frac{{vol}_{G}}{b} M) ‖}_{F} \leq \frac{4 ϵ {vol}_{G}}{b \sqrt{d_{min}}} \sqrt{\sum_{i = 1}^{n} \frac{1}{d_{i}}}$
$\text{truncLog}^\circ()$ 函数满足是 1- Lipchitz 的。因此我们有：
$\begin{matrix} {‖ {truncLog}^{\circ} (\frac{{vol}_{G}}{b} \tilde{M}) - {truncLog}^{\circ} (\frac{{vol}_{G}}{b} M) ‖}_{F} \\ \leq {‖ \frac{{vol}_{G}}{b} \tilde{M} - \frac{{vol}_{G}}{b} M ‖}_{F} = \frac{{vol}_{G}}{b} ‖ \tilde{M} - M ‖ \\ = \frac{{vol}_{G}}{b} \sqrt{\sum_{i = 1}^{n} σ_{i}^{2} (\tilde{M} - M)} \leq \frac{4 ϵ {vol}_{G}}{b \sqrt{d_{min}}} \sqrt{\sum_{i = 1}^{n} \frac{1}{d_{i}}} \end{matrix}$
$d_\min$ 、或者特定的随机图模型（如 Planted Partition Model 或者 Extended Planted Partition Model ），则有望通过利用文献中的定理来探索更严格的边界。

1.2 实验

数据集：我们使用五个数据集，其中四个规模（BlogCatalog, PPI, Flickr, YouTube）相对较小但是已被广泛用于 network embedding 的论文，剩下一个是大规模的 academic co-authorship network 。
- BlogCatalog 数据集：在线博主的社交关系网络。标签代表博主的兴趣。
- Flickr 数据集：Flickr网站用户之间的关系网络。标签代表用户的兴趣组，如“黑白照片”。
- Protein-Protein Interactions:PPI：智人 PPI 网络的子图。顶点标签是从标志基因组hallmark gene set 中获取的，代表生物状态。
- Youtube 数据集：YouTube 网站用户之间的社交网络。标签代表用户的视频兴趣组，如“动漫、摔跤”。
- Open Academic Graph:OAG 数据集：一个学术网络，顶点标签位每个作者的研究领域，共有 19 种不同的标签。每位作者可以研究多个领域，所以有多个标签。
这些数据集的统计信息如下表所示。
baseline 和配置：我们将 NetSMF 与 NetMF, LINE, DeepWalk, node2vec 等方法进行比较。
- embedding $d=128$ 。
- NetSMF/NetMF/DeepWalk/node2vec $T=10$ ，这也是 DeepWalk, node2vec 中使用的默认设置。
- 对于 LINE我们仅使用二阶邻近度，即 LINE(2nd)，负样本系数为 5，边采样的数量为 100亿。
- 对于 DeepWalk，随机游走序列的长度为40，每个顶点开始的随机游走序列数量为 80，负采样系数为 5 。
- 对于node2vec，随机游走序列的长度为40，每个顶点开始的随机游走序列数量为 805 $p,q$ $\{0.25,0.5,1,2,4\}$ 中进行 grid search 得到。
- 对于 NetMFBlogCatalog,PPI,Flickr $h=256$ 。
- 对于 NetSMFPPI,Flickr,YouTube $M=10^3\times T\times m$ BlogCatalog $M=10^4\times T\times m$ OAG $M=10\times T\times m$ 。
- 对于 NetMFNetSMF $b=1$ 。
和 DeepWalk 相同的实验步骤执行多标签顶点分类任务：我们首先训练整个网络的 embedding，然后随机采样一部分标记样本来训练一个one-vs-rest 逻辑回归分类模型（通过 LIBLINEAR 实现），剩余的顶点作为测试集。在测试阶段，one-vs-rest 模型产生标签的排序，而不是精确的标签分配。为了避免阈值效应，我们采用在 DeepWalk, LINE, node2vec 中所作的假设，即给定测试数据集中顶点的 label 数量。我们评估测试集的 Micro-F1 指标和 Macro-F1 指标。为了确保实验结果可靠，每个配置我们都重复实验 10 次，并报告测试集指标的均值。所有实验均在配备 Intel Xeon E7-8890 CPU （64 核）、1.7TB 内存、2TB SSD 硬盘的服务器上进行。
对于 BlogCatalog,PPI 数据集，我们考察分类训练集占比 10%~90% 的情况下，各模型的性能；对于 Flickr,YouTube,OAG 数据集，我们考察分类训练集占比 1%~10% 的情况下，各模型的性能。
完成的实验结果如下图所示。对于训练时间超过1周的模型，我们判定为训练失败，此时并未在图中给出结果。第二张图给出了模型训练时间，- 表示模型无法在周内完成训练（时间复杂度太高)；x 表示模型因内存不足无法训练（空间复杂度太高）。
我们首先重点对比 NetSMF 和 NetMF，因为 NetSMF 的目标是解决 NetMF 的效率和可扩展性问题，同时保持 NetMF 的效果优势。从结果可以看到：
- 在训练速度上：对于大型网络（YouTube,OAG），NetMF 因为空间复杂度和时间复杂度太高而无法训练，但是 NetSMF 可以分别在4h 内、 24h 内完成训练；对于中型网络（Flickr），二者都可以完成训练，但是 NetSMF 的速度要快2.5倍；对于小型网络，NetMF 的训练速度反而更快，这是因为 NetSMF 的稀疏矩阵构造和分解的优势被 pipeline 中其它因素抵消了。
- 在模型效果上：NetSMF 和 NetMF 都能产生最佳的效果（和其它方法相比）。在 BlogCatlog 中，NetSMF 的效果比 NetMF 稍差；在 PPI 中，两种方法性能难以区分、在 Flicker 中，NetSMF 的效果比 NetMF 更好。这些结果表明：NetSMF 使用的稀疏谱近似sparse spectral approximation，其性能不一定比稠密的 NetMF 效果更差。
总之，NetSMF 不仅提高了可扩展性，还能保持足够好的性能。这证明了我们谱稀疏化近似算法的有效性。
我们还将 NetSMF 与常见的 graph embedding 基准（即 DeepWalk, LINE, node2vec）进行了比较。
- 对于 OAG 数据集，DeepWalk 和 node2vec 无法在一周内完成计算，而 NetSMF 仅需要 24 小时。根据公开报道的 SkipGram 运行时间，我们预计 DeepWalk 和 node2vec 可能需要几个月的时间来为 OAG 数据集生成 embedding。
  在 BlogCatalog 中，DeepWalk 和 NetSMF 需要差不多的计算时间。而在 Flickr, YouTube, PPI 中，NetSMF 分别比DeepWalk 快 2.75 倍、5.9 倍、24 倍。
  在所有数据集中，NetSMF 比 node2vec 实现了 4 ~ 24 倍的加速。
- 此外，NetSMF 的性能在 BlogCatalog, PPI, Flickr 中显著优于 DeepWalk。在 YouTube 中，NetSMF 取得了与 DeepWalk 相当的结果。与 node2vec 相比，NetSMF 在 BlogCatalog, YouTube 上的性能相当，在 PPI, Flickr 上的性能显著更好。总之，NetSMF 在效率和效果上始终优于 DeepWalk 和 node2vec 。
- LINE 在所有五种方法中是效率最高的，然而它的预测效果也最差，并且在所有数据集上始终以很大的差距输给其它方法。总之，LINE 以忽略网络中的 multi-hop 依赖性作为代价从而实现了效率，而所有其它四种方法都支持这些依赖，这证明了 multi-hop 依赖性对于学习 network representation 的重要性。
- 更重要的是，在除了 LINE 以外的四种方法之间，DeepWalk 既没有达到效率上的优势，也没有达到效果上的优势。node2vec 以效率为代价实现了相对较好的性能。NetMF 以显著增加的时间和空间成本为代价实现了更好的效果。NetSMF 是唯一同时实现了高效率和高效果的方法，使得它能够在一天内在单台服务器上为数十亿规模的网络（例如 9 亿条边的 OAG 网络）学习有效的 embedding 。
这里我们讨论超参数如何影响 NetSMF 的效率和效果。我们用 Flickr 数据集的 10% 标记顶点作为训练集，来评估NetSMF 超参数的影响。
- $d$ ：我们使用 Cattell ScreeFlickr $d$ 增加到 100b $d=2^8=128$ 。
  $d=2^4\sim2^8$ $d=128$ 时模型效果最好。这表明了 NetSMF 可以自动选择最佳的 embedding 维度。
  NetSMFembedding $\mathbf X \mathbf Y^\top = \text{truncLog}^\circ \left(\frac{\text{vol}_G}{b}\tilde{\mathbf M}\right)$ 的奇异值。对于大型网络，计算奇异值是不可行的。
- $M=O(T\times m\epsilon^{-2}\log n)$ $M$ $M$ $k\times T\times m$ $k=\{1,10,,100,200,500,1000,2000\}$ $M$ 的增大模型性能的影响。
  如图 cNetSMF $M$ $M$ $M=1000\times T\times m$ 时，NetSMF 的效率和效果得到平衡。
- 并行性：我们将线程数量分别设置为 1、10、20、30、60，然后考察NetSMF 的训练时间。
  如图d 所示，在单线程时NetSMF 运行了 12 个小时，在30 个线程时NetSMF 运行了 48 分钟，这实现了 15 倍的加速比（理想情况 30 倍）。这种相对较好的亚线性加速比使得 NetSMF 能够扩展到非常大规模的网络。